استخراج پیکره‌ موازی از اسناد قابل‌مقایسه برای بهبود کیفیت ترجمه در سیستم‌های ترجمه ماشینی

Authors

ثمنی, محمدحسین پژوهشکده پردازش هوشمند علائم

خدیوی, شهرام دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر

رحیمی, زینب پژوهشکده پردازش هوشمند علائم

Abstract:

Data used for training statistical machine translation method are usually prepared from three resources: parallel, non-parallel and comparable text corpora. Parallel corpora are an ideal resource for translation but due to lack of these kinds of texts, non-parallel and comparable corpora are used either for parallel text extraction. Most of existing methods for exploiting comparable corpora look for parallel data at the sentence level. However, we believe that very non-parallel corpora have none or few good sentence pairs most of their parallel data exists at the sub-sentential level. The base system is Manteanu 2006 fragment extraction system implemented in C# and the proposed system is implemented based on extracting fragment blocks from input related sentences using score calculated from special features such as fragment length, LLR score, relevance path specification in the block and translation coverage percent. Evaluations indicates that proposed method outperforms the base system and the improved base system.

Download for Free

Already have an account?login

similar resources

استخراج پیکره موازی از اسناد قابل مقایسه برای بهبود کیفیت ترجمه در سیستم های ترجمه ماشینی

امروزه با گسترش وسائل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشم گیری افزایش یافته است. یکی از مطرح ترین روش های ترجمه ماشینی، روش آماری است. پارامترهای سیستم ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دو زبانه) تخمین زده می شود؛ اما در برخی زبان ها هنوز مسئله نیاز پایه ای سیستم ترجمه ماشینی آماری یعنی پیکره های متنی بزرگ ...

full text

نگرشی بر ترجمه ماشینی

از دیر باز بشر همیشه در آرزوی اختراع دستگاهی بوده است که بتواند متون را از زبان مبداء به زبان مقصد با سرعت و دقت فراوان ترجمه کند. تلاش برای رسیدن به این آرزو بیش از پنج دهه است که آغاز شده است و محققان دسا اوردهایی در زمینه طراحی سیستم ها و ساخت ماشین های مترجم بدست آورده اند ولی نام ماشینهای مترجم همواره مفهوم منفی را در ذهن افراد تداعی می کند و بیشتر مترجمان و محققان نظر منفی درباره ماشینهای...

full text

تجزیه و تحلیل اصطلاحات برای استفاده در ترجمه ماشینی

full text

گروه اعداد در ترجمه ماشینی

هدف از عرضه گروه اعداد، ساختن ترکیبات مجاز از اعداد اصلی و ترتیبی در زبان فارسی است. در این مقاله سی و هشت عضو دستگاه عددگویی فارسی در چهارگروه چندعضوی و دو گروه تک عضوی قرار داده شده اند. سی و هشت عضو مذکور در دو دسته قاعده کلی (یعنی قواعد گروه اعداد اصلی و اعداد ترتیبی) جای داده شده اند. تعداد قواعد اعداد اصلی شامل چهل و هفت، و تعداد قواعد اعداد ترتیبی (که خود بر دو نوع اند) شامل چهار قاعده ا...

full text

ابهام زدایی واژگانی صفات مبهم در ترجمه ماشینی: بررسی پیکره بنیاد

موضوع ابهام در معانی واژه ها و ساختار ها و چگونگی برطرف کردن آن به ویژه به هنگام ترجمه ماشینی ذهن بسیاری از محققان را در این حوزه به خود مشغول داشته و برای آن راهکار های گوناگونی ارائه شده است. در این مقاله بر آنیم تا به ابهام موجود در واژه ها بپردازیم.صفات و نامهای مبهم با تعدد معانی خود دشواریهایی را در ترجمه ماشینی بوجود می آورند . در برنامه های خودکار که اراده انسانی در انتخاب معادل دخالتی ...

full text

تجزیه و تحلیل اصطلاحات برای استفاده در ترجمه ماشینی

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

Journal title

پردازش علائم و داده ها

volume 12 issue 2

pages 55- 72

publication date 2015-09

unfollow

{@ msg @}

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com